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基于 ERGM 的 学 科 交 叉 领域 知识 连接 机 制 实证 研究 * 
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摘要 : [目的 /意义 ] 旨 在 通过 探 
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北京 100872 


讨 学 科 交 又 领 域 共 词 网 络 生 成 的 影响 因素 及 其 作用 机 理 , 揭 示 学 科 交 又 领 


域 的 微观 知识 连接 机 制 。[ 方法 /过程 ] 结 合 网 络 误 入 性 理论 ,将 学 科 交 叉 领 域 关键 词 共 现 关系 建立 的 影响 因素 
归纳 为 网 络 结构 因素 (内 生变 量 ) 和 关键 词 属性 因素 (外 生变 量 ) ,进而 借助 指数 随机 图 模型 ,选择 学 科 交 又 领 
域 “医学 信息 学 ”开展 实证 研究 。[ 结果 /结论 ] 研究 结果 表明 :网 络 结构 对 共 现 关系 生成 的 影响 大 于 关键 词 本 
身 属 性 的 影响 ;择优 连接 机 制 和 传递 性 机 制 具 有 显著 正 向 作用 ;关键 词 节点 倾向 于 与 较 新 节点 相连 ;医学 信息 
学 的 关键 词 倾向 于 与 基础 学 科 的 关键 词 建立 共 现 关 系 , 而 基础 学 科 的 关键 词 却 倾向 于 与 自身 学 科 关 键 词 相 连 。 
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跨 学 科 同 质 性 ”择优 连接 “时间 效应 


跨 学 科研 究 已 成 为 科学 研究 活动 的 重要 形式 ,学 
科 宽 又 研究 领域 业已 占据 科学 版 图 的 较 大 比例 且 处 于 
条 训 位 置 中 。 不 仅 在 自然 科学 门类 内 部 发 生 着 学 科 交 
叉 志 究 ,近年 来 ,社会 计算 .数字 人 文 .计算 传播 学 等 跨 
越 学 科 门 类 的 交叉 领域 亦 受到 研究 者 的 重视 。 学 科 交 
区 表象 引起 了 科学 学 和 科技 哲学 等 学 科 的 关注 ,同时 
在 情报 学 领域 ,也 产生 了 以 科技 文献 分 析 为 手段 ,以 学 
科 交 又 领域 为 对 象 的 相关 研究 2-3 。 通 过 文献 计量 来 
揭示 期 刊 “学 者 .研究 领域 的 学 科 交 又 特征 是 其 
中 的 主流 研究 方向 。 

近年 来 , 较 多 研究 采用 科学 知识 网 络 描述 科学 知 
识 系 统 , 根 据 知识 节点 及 其 关系 类 型 的 不 同 ,涉及 引文 
网 络 、 合 著 网 络 . 共 词 网 络 等 具体 网 络 模型 "5 。 科 学 
知识 网 络 中 的 知识 连接 ,起 到 了 关联 不 同 知识 元 素 的 
作用 ,是 知识 网 络 的 微观 结构 基础 。 研 究 科 学 知识 网 
络 中 知识 连接 的 形成 过 程 和 动力 学 机 制 ,有 助 于 从 微 
观 视角 深入 理解 科学 知识 的 产生 、 创 新 和 演化 规律 。 
共 词 网 络 是 一 种 重要 的 知识 网 络 , 其 节点 代表 主题 . 舍 
有 语义 内 容 的 关键 词 "!。 从 时 序 角 度 来 看 ,领域 关键 


T 


词 的 产生 存在 先后 关系 ,因而 建立 共 现 关系 的 关键 词 
之 间 因 时 间 先 后 而 发 生 着 知识 连接 现象 。 基 于 此 , 笔 
者 采用 共 词 网 络 研 究 学 科 领 域 中 的 知识 连接 。 

学 科 领 域 的 共 词 网 络 以 代表 学 科 主 题 的 关键 词 为 
基础 ,从 某 种 程度 上 体现 了 学 科 领 域 的 知识 结构 ,能够 
揭示 其 内 部 知识 关系 … 。 目 前 , 较 多 研究 利用 共 词 网 
络 的 语义 信息 揭示 领域 的 主题 结构 及 其 演化 ""。 
学 科 交 叉 领 域 是 由 多 个 传统 学 科 跨 越 学 科 边 界 而 发 展 
起 来 的 ” 。 针 对 学 科 交 又 领 域 , 一 些 研究 也 关注 到 了 
其 特殊 性 ,在 主题 分 析 时 考虑 到 主题 形成 过 程 中 来 自 
不 同学 科 的 影响 ,以 理解 跨 学 科 知识 如 何在 学 科 交 又 
领域 发 生 作用 ” 。 然 而 ,当前 的 主题 分 析 仍 倾向 于 
宏观 趋势 研究 ,尚未 细致 到 微观 作用 过 程 的 分 析 。 事 
实 上 , 共 词 网 络 本 身 承载 着 微观 知识 的 相互 关系 ,研究 
共 词 网 络 的 结构 成 因 是 解剖 领域 知识 系统 的 微观 作用 
机 制 的 有 将 手段。 当前, 有些 研 究 已 借助 复杂 网 络 和 
社会 网 络 等 分 析 方 法 揭示 共 词 网 络 的 结构 特征 ,例如 
发 现 了 共 词 网 络 中 的 小 世界 现象 .节点 度 的 寄 律 分 布 
规律 等 ”。 然 而 , 现 有 研究 主要 存在 两 方面 的 不 足 : 
QD 这 些 分 析 多 关注 网 络 结构 特征 ,而 忽略 了 关键 词 节 
点 本 身 属 性 的 影响 ;@) 尚 未 针对 学 科 交 叉 领域 共 词 网 
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络 的 特殊 性 开展 专门 研究 , 较 少 考虑 多 学 科 特 性 对 共 


或 者 连 边 本 身 对 网 络 连 边 产 生 影响 的 属性 。 学 科 交 又 


词 网 络 微观 结构 的 影响 。 基 于 以 上 分 析 , 学 科 交 又 领 
域 共 词 网 络 的 结构 特征 能 够 反映 多 学 科 知识 的 相互 作 
用 关系 ,通过 研究 共 词 网 络 中 知识 连接 的 生成 过 程 能 
够 揭示 跨 学 科 知识 的 微观 作用 机 理 。 

指数 随机 图 模型 (Exponential Random Graph Mod- 
el, ERGM) 是 在 社会 网 络 统计 分 析 模 型 基础 上 发 展 起 
来 的 一 种 以 关系 形成 为 对 象 的 研究 方法 , 旨 在 通过 统 
计 的 方法 量化 分 析 关 系 形成 的 影响 因素 "1。 该 模型 
不 仅 考虑 了 网 络 内 生 结 构 的 影响 ,同时 还 分 析 节点 本 
身 的 属性 ,能 够 较为 全 面 地 揭示 网 络 生成 的 影响 因素 
及 其 作用 机 理 。ERGM 常 被 用 于 解释 社会 网 络 的 形成 
机 制 。 例 如 ,针对 社会 网 络 , 利 用 ERGM 研究 青少年 同 
伴 网 络 形成 过 程 中 的 互惠 效应 ,传递 机 制 和 结构 扩展 
机 向“ 。 一 些 学 者 逐渐 将 ERGM 应 用 于 知识 网 络 的 
研 穹 中 ,从 知识 网 络 结构 特性 .社会 因素 .语义 因素 等 
六 探 讨 合 作 网 络 、 引 文 网 络 等 的 形成 机 制 。C. 
Zyemg 等 借助 该 模型 研究 传递 机 制 . 优 先 链接 机 制 
两 种 网 络 机 制 和 作者 生产 力 .影响 力 .研究 主题 和 性 别 
等 信者 属性 的 同 质 性 对 于 作者 合作 关系 形成 的 影响 机 
制 \ 杨 冠 灿 等 加 运用 ERGM 从 引文 网 络 的 连 边 、 度 分 
本 乱 递 闭合 等 网 络 结构 以 及 专利 的 地 域 .领域 .学 科 、 
所 启 机 制 和 审查 员 类 型 等 属性 对 专利 引用 关系 的 形成 
进行 了 实证 性 解释 。 然 而 ,目前 尚未 有 利用 该 模型 研 
完 征 词 网 络 的 形成 过 程 的 研究 。 鉴 于 ERGM 的 优势 和 
当 兰 研究 现状 ,笔者 借助 指数 随机 图 模型 揭示 学 科 交 
又 略 域 的 共 词 网 络 生成 机 制 ,较为 全 面 地 章 析 网 络 结 
构 ( 学 科 属性 .时 间 等 多 个 因素 对 学 科 交 又 领 域 知识 系 
统 形成 的 影响 。 


2 ”研究 方法 

2.1 分 析 框 架 与 研究 假设 

早期 ,社会 网 络 生 成 机 制 的 研究 多 采用 线性 回归 
的 思路 ,其 关注 点 在 于 节点 对 的 属性 对 于 关系 生成 的 
作用 ,未 考虑 其 他 网 络 结构 的 影响 ” 。 网 络 附 入 性 理 
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领域 共 词 网 络 的 生成 机 制 分 析 框 架 如 图 1 所 示 : 


E 


| MUERE | | 结构 说 和 人 |! 
1 
1 | 点 度 中 心性 | |>| 择优 连接 机 制 | 1 
网 络 结构 | l | | 
CR 1 | | 
交叉 | 1 | | 
领域 METTE le[ 传递 性 机 制 | 1 
共 词 | i | 1 
Me 二 RAR | | 
2 rv E | 
ER | HAR j [ 
节点 属性 | | | 热点 浮现 1 
| | 最 早出 现时 间 < i 时 间 效应 | | 
| | I | 1 。 跨 学 科 合作 | 
1 | 学 各 属性 “| lw| 学 科 异 质 性 | 
p —€——Á—ÁÁ € ] | —áÓ | 

变量 知识 连接 机 制 


图 1 理论 分 析 框 架 


图 1 从 网 络 内 生 和 外 生 两 个 角度 研究 关键 词 之 间 
如 何 建立 共 现 关系 。 从 内 生 角 度 来 看 ,网 络 连 边 的 生 
成 受到 择优 连接 机 制 、 传 递 性 机 制 影响 。 择 优 连接 是 
复杂 网 络 的 一 种 常见 动力 学 机 制 , 即 拥有 的 联系 越 多 
越 容 易 与 其 他 节点 相连 ”: 。 在 共 词 网 络 中 ,关键 词 节 
点 的 点 度 中 心性 衡量 了 与 其 他 关键 词 共 现 的 次 数 。 点 
度 中 心性 越 高 的 关键 词 可 能 代表 领域 研究 热点 ,更 容 
易 产 生 新 的 知识 ,因此 新 的 研究 主题 (可 包含 多 个 新 出 
现 的 关键 词 ) 可 能 倾向 于 与 这 些 关键 词 相 连 ,从 而 表现 
出 择优 连接 “” 。 关 键 词 节点 的 中 介 中 心性 衡量 了 其 
是 否 处 于 其 他 节点 间 的 最 短路 径 之 上 。 处 于 中 介 位 置 
的 节点 ,起 到 了 知识 中 介 的 作用 ,连接 着 不 同 的 知识 片 
区 。 在 学 科 领 域 发 展 过 程 中 ,新 的 主题 可 能 会 与 中 介 
节点 相连 ,从 而 使 不 同 知识 片区 连接 更 为 紧密 ,使 得 领 
域 知识 结构 更 加 紧密 。 基 于 以 上 分 析 , 笔 者 提出 如 下 
研究 假设 : 

H1 :关键 词 节点 的 点 度 中 心性 越 大 ,其 他 节点 与 
之 产生 共 现 关系 的 可 能 性 越 大 。 
H2 :关键 词 节点 的 中 介 中 心性 越 大 ,其 他 节点 与 
之 产生 共 现 关系 的 可 能 性 越 大 。 

在 网 络 结构 中 ,聚集 系数 通过 网 络 中 三 元 组 的 数 


论 则 认为 ,网 络 行动 者 的 行为 和 影响 敬 入 在 网 络 环境 
之 中 , 透 过 网 络 结构 可 以 认 知 行动 者 的 行为 ”。 基 于 
这 种 思想 ,影响 学 科 交 又 领域 共 词 网 络 中 关系 生成 的 
因素 ,不仅 包括 节点 对 之 间 的 因素 ,同时 还 需要 考虑 节 
点 怠 人 在 整体 网 络 之 中 的 结构 信息 。 从 网 络 系统 角度 
来 看 , 共 词 网 络 中 关键 词 建立 连 边 的 影响 因素 主要 来 
自 于 两 个 方面 :内 生变 量 , 即 结 构 符 入 ,主要 是 节点 
身 处 于 网 络 中 所 具有 的 结构 属性 ;@) 外 生变 量 , 即 节点 


量 来 衡量 网 络 中 节点 聚集 成 团 的 程度 。 三 元 组 节点 之 
间 彼 此 建立 关系 的 结构 称 为 “三 元 闭 包 ” ,该 结构 的 形 
成 是 网 络 演 化 的 一 种 较为 普遍 的 动力 。 其 通俗 化 的 解 
释 为 :朋友 的 朋友 倾向 于 建立 新 的 朋友 关系 ,这 种 机 制 
亦 称 为 传递 性 机 制 。 在 共 词 网 络 中 ,三 元 闭 包 结构 有 
助 于 知识 产生 聚集 效应 ,具有 三 元 闭 包 形成 潜力 的 
关键 词 之 间 存 在 内 在 的 知识 关联 性 ,将 更 可 能 建立 起 
知识 连接 。 因 此 ,笔者 提出 研究 假设 : 
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H3 :关键 词 节点 的 聚集 系数 越 大 ,其 他 节点 与 之 
产生 共 现 关系 的 可 能 性 越 大 。 

从 外 生 角 度 来 看 ,关键 词 本 身 的 外 部 属性 亦 可 能 
影响 到 关键 词 之 间 建立 共 现 关系 。 在 此 ,主要 考虑 时 
间 效 应 和 学 科 蜡 质 性 的 影响 。 在 学 科 领 域 的 知识 增长 
过 程 中 ,早期 出 现 的 关键 词 节点 更 有 可 能 是 学 科 领 域 
的 知识 基础 ,而 新 兴 的 知识 节点 依托 于 已 有 知识 基础 
而 产生 关联 ,受到 学 科研 究 的 热点 浮现 过 程 影响 ,知识 
节点 可 能 更 多 与 产生 时 间 与 之 相近 的 节点 相连 。 
在 学 科 交 叉 领 域 中 ,多 学 科 知 识 相互 融合 发 生 作用 ,不 
同学 科 的 知识 可 能 倾向 于 彼此 连接 。 为 验证 以 上 分 
析 , 笔 者 提出 如 下 假设 : 

了 于 :关键 词 最 早出 现时 间 的 差异 性 越 小 , 越 有 助 
TOESUE RR t vr 


SyH5 :关键 词 学 科 属 性 的 异 质 性 ,有 助 于 共 现 关系 


25 共 词 网 络 知识 连接 的 影响 因素 
中 根据 以 上 理论 分 析 框 架 ,笔者 共 考 察 表 1 中 所 列 
的 5- 个 影响 因素 ,包含 3 种 网 络 结构 变量 和 2 种 关键 


二 同性 变量 。 节 点 的 点 度 中 心性 degree .中介 中 心性 
benness 和 聚集 系数 cluster_coef 采用 社会 网 络 分 
拢 六 法 测度 。 关 键 词 在 领域 中 出 现 的 最 早年 份 min_ 
ye 二 六 据 关键 词 所 属 论文 进行 判定 。 笔 者 采用 关键 记 
EUR E 计算 方法 来 获取 关键 词 的 学 科 分 类 属 
基本 思路 是 :基于 投票 原则 ,关键 词 隶属 于 某 一 学 
科 明 程度 与 该 关键 词 在 该 学 科 文 献 中 出 现 的 次 数 成 正 
比 SS 该 学 科 的 发 文 规模 成 反比 。 对 于 关键 词 K, 若 其 
在 韶 科 所 发 表 文献 中 出 现 的 次 数 为 Cv, 该 学 科 发 文 
总 量 P,, 则 关键 词 K 隶属 于 该 学 科 的 程度 Su 为 : 


公式 (1) 
其 中 ,N 为 学 和 总数。 计算 关键 词 K 在 所 有 N 个 
学 科 中 的 隶属 度 ,然后 取 最 大 值 所 对 应 的 学 科 作为 该 
关键 词 最 终归 属 的 学 科 。 
表 1 共 词 网 络 知识 连接 的 影响 因素 
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假设 ”变量 类 型 变量 名 数值 类 型 变量 解释 

Hl ”内 生变 量 degree 连续 型 ”节点 的 点 度 中 心性 

H2 ”内 生变 量 ^ betweenness ”连续 型 ”节点 的 中 介 中 心性 

H3 ”内 生变 量 — cluster_coef ”连续 型 ”节点 的 聚集 系数 

H4 ”外 生变 量 min_year 连续 型 ”关键 词 在 该 领域 中 出 现 的 最 
早年 份 

H5 ”外 生变 量 ”wos_category ”类 别 型 ”关键 词 的 学 科 分 类 属性 , 取 值 


范围 为 医学 信息 学 、 医 学 、 卫 
生 保健 .计算 机 科学 和 统计 学 


2.3 ”指数 随机 图 模型 构建 

笔者 利用 指数 随机 图 模型 方法 来 研究 学 科 交 又 领 
域 共 词 网 络 中 关键 词 共 现 关 系 的 生成 机 制 。 

ERGM 以 关系 数据 为 基础 ,以 依赖 性 条 件 假 设 为 
条 件 , 选 择 网 络 局 部 结构 作为 网 络 统 计 项 来 观察 复杂 
网 络 的 整体 结构 特征 ,从 而 获得 对 于 网 络 复杂 性 、 关 联 
性 以 及 随机 性 的 整体 认 知 ”。ERGM 的 基础 公式 为 : 


P (Y=y) = GL) epl X m 001 


公式 (2) 
其 中 , 求 和 是 包含 所 有 的 统计 变量 A 的 加 总 ,7 
是 对 应 的 统计 变量 A 的 参数 ,g,(y) = TL, y SER 
统计 变量 的 网 络 统计 量 ,k 是 标准 化 常数 ,确保 公式 
(2) 为 适当 的 0 到 1 的 概率 分 布 ”。 在 具体 研究 中 ， 
可 以 根据 研究 内 容 对 统计 变量 集合 A 进行 设计 ,以 适 
应 研究 需要 。 本 文 模型 变量 集合 参见 表 1。 
简单 来 说 ,ERGM 的 核心 任务 就 是 给 具有 某 些 特 
定 机 制 组 合 的 网 络 赋予 权 值 的 过 程 。 因 此 ,公式 (1) 
也 可 以 写成 一 种 条 件 Logit 的 形式 : 
PO SIYE 
PUO SQ 
mie E X) -gi(Y; ua 公式 (3 ) 
其 中 ,Y; 指 共 词 网 络 中 一 条 新 的 共 现 关系 出 现 的 
概率 ,Y,“ 表示 网 络 中 除了 之 外 的 其 它 共 现 关 系 ,Logit 
[e eco ry] tte init o 
的 概率 与 它 不 出 现 的 概率 的 对 数 比值 ;d\(y) 是 网 络 统 
计量 的 变化 值 ;m* 是 相应 的 估计 参数 。 通 过 公式 (3)， 
可 以 得 到 在 一 条 共 现 关系 生成 概率 从 0 到 1 变化 的 过 
程 中 ,由 共 词 网 络 中 相关 统计 变量 (包括 节点 属性 和 网 
络 结构 属性 ) 变 化 所 引起 的 关系 生成 与 关系 不 生成 的 
对 数 比值 。 在 指数 随机 图 模型 中 ,该 系数 也 被 称 为 对 
数 几 率 。 当 一 条 共 现 关系 的 对 数 几 率 被 计算 出 为 B， 
可 以 理解 为 ,在 关系 生成 概率 在 0 到 1 的 范围 内 , 受 特 
定 共 现 网 络 统计 变量 一 个 单位 的 变化 影响 ,该 共 现 关 
系 生 成 的 概率 是 不 生成 的 概率 的 er 倍 。 
基于 以 上 设计 ,借助 语言 的 statnet 包 ” 构建 
ERGM 并 求解 。 在 实证 过 程 中 ,分 别 研究 外 生变 量 和 
内 生变 量 对 网 络 生成 的 作用 ,构建 零 模 型 网络 结构 模 
型 节点 属性 模型 和 综合 模型 4 个 实证 模型 进行 对 比 
研究 ,模型 细节 参见 表 2。 零 模型 仅 作为 参照 模型 , 考 
察 网 络 连 边 数 的 影响 。 网 络 结构 模型 在 零 模型 基础 
上 ,加 入 内 生变 量 。 节 点 属性 模型 在 零 模型 基础 上 , 考 
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察 外 生变 量 的 影响 ,针对 学 科 属 性 既 研 究 其 一 元 属性 ， 同时 加 入 内 生变 量 和 外 生 
研究 其 二 元 节点 间 的 同 质 性 。 综 合 模型 在 零 模型 上 ， 
表 2，4 个 实证 ERGM 的 具体 细节 
模型 零 模型 网 络 结构 模型 节点 属性 模型 综合 模型 
详细 公式 keyword _ network — keyword network ~ edges + nodecov ^ keyword network ~edges +nodefactor ^ keyword, network ~ edges + nodefactor 
~ edges (" degree") + nodecov (" between- — (" wos, category", base = 4) + (" wos, category", base = 4) + 
ness") + nodecov(" cluster, coef" ) nodematch ( " wos, category" , diff — nodematch ( " wos, category" , diff — 
T) -absdiffcat( " min, year" ) T) +absdiffcat ( " min, year" ) + no- 
decov( " degree" ) + nodecov ( " be- 
tweenness" ) + nodecov ( " cluster. co- 
ef" ) 
考察 因素 网 络 结构 中 的 边 ”1. 网 络 结构 中 的 边 数 1. 网 络 结构 中 的 边 数 1. 网 络 结构 中 的 边 数 
数 2. 节点 在 网 络 结构 中 的 点 度 中 心性 2. 节点 自身 的 最 早出 现年 份 2. 节点 在 网 络 结构 中 的 点 度 中 心性 
3. 节点 在 网 络 结构 中 的 中 介 中 心性 一 差 值 效应 3. 节点 在 网 络 结构 中 的 中 介 中 心性 
4. 节点 在 网 络 结构 中 的 聚集 系数 3. 节点 自身 的 学 科 分 类 属性 4. 节点 在 网 络 结构 中 的 聚集 系数 
一 主 效 应 5. 节点 自身 的 最 早出 现年 份 
=- 同 质 性 - 差 值 效 应 
6. 节点 自身 的 学 科 分 类 属性 
=- 主 效 应 
- 同 质 性 
数据 清洗 工作 ,得 到 最 终 的 关键 词 集合 。 表 3 列 出 了 5 


et 


cii citt. 在 确定 学 科 领 域 的 范围 时 ， 借助 布 拉 
窒 定 律 原理 , 即 一 个 学 科 的 绝 大 部 分 论文 来 自 于 少 
刊 ,采用 核心 期 刊 来 定义 学 科 范 围 。 以 
brof Science ( WOS) 数据 库 作 为 文献 数据 来 源 ,针对 
医 党 信息 学 ,确定 2016 年 版 WOS 的 医学 信息 学 分 类 


"ut 24 个 期 刊 作 为 来 源 期 刊 , 共 检索 得 到 1900 4E 
2016 4 的 37 650 条 Article 类 型 论文 题 录 ,其 元 数据 包 


含 论文 标题 ,作者 关键 词 、 系 统 关键 词 . 期 刊 . 发 表 时 
间 、 学 科 分 类 等 项 。 


为 计算 关键 词 的 学 科 属 性 ,首先 需要 确定 医学 信 
息 学 的 关键 关联 基础 学 科 。 通 过 统计 医学 信息 学 的 参 
考 文献 所 属 期 刊 进行 确定 ,并 参考 期 刊 的 WOS 学 科 分 


类 信息 , 共 选 定 了 医学 (Medicine) , T. ^E fr fë ( Health 
Care) .计算 机 科学 (Computer Science ) 和 统计 学 (Sta- 
tistics )4 个 学 科 作 为 关联 基础 学 科 。 分 别 收集 4 个 学 
科 的 期 刊 论文 题 录 信 息 ,论文 发 表 时 间 亦 设 为 1900 年 
至 2016 年 。 

在 预 处 理 时 ,识别 5 个 学 科 领 域 的 关键 词 ,计算 关 
键 词 的 学 科 隶 属 度 。 由 于 作者 关键 词 的 大 量 缺 失 , 笔 
者 也 使 用 系统 关键 词 ,并 从 标题 中 抽取 名 词 短语 作为 
标题 关键 词 ,集成 3 类 关键 词 提 升 关 键 词 覆盖 范围 。 
经 标点 符号 替换 、 基 于 最 短 编 辑 距离 的 同义词 发 现 等 


个 学 科 的 期 刊 数 .论文 数 ,关键 词 数 ,关键 词 总 频次 等 


信息 。 


表 3 5 个 学 科 的 基本 信息 

学 科 类 别 期 刊 数 论文 数 ”关键 词 数 。” 关键 词 总 频次 
医学 信息 24 37624 126552 407 346 
医学 25 119 475 227322 841 296 
卫生 保健 33 76 291 183 372 783 276 
计算 机 科学 24 70256 227 269 693 569 
统计 学 25 57 529 143 829 472 414 

3.2 共 词 网 络 构建 


由 表 3 可 知 , 医 学 信息 学 领域 的 关键 词 数量 较 多 。 
一 方面 statnet 所 文 持 的 网 络 规模 不 宜 过 大 , 男 一 方面 
关键 词 出 现 频次 过 低 , 其 统计 值 更 可 能 受 随机 因素 影 
响 。 因 此 ,有 必要 对 关键 词 进行 第 选 。 借 鉴 J. C. Do- 
nohuc 提出 的 高 频 词 低 频 词 界 分 公式 ,选取 前 1 000 
个 高 频 词 。 由 于 第 995 个 词 到 第 1 013 个 词 同 样 拥有 
46 的 频次 ,截取 前 1 013 个 高 频 词 ,用 于 构建 共 词 网 
络 。 如 果 两 个 关键 词 同 时 出 现在 一 篇 文章 中 , 则 认为 
这 两 个 关键 词 之 间 存 在 一 条 共 现 关系 ,本 研究 暂 不 考 
虑 关键 词 之 间 的 共 现 强度 。 
医学 信息 学 共 词 网 络 的 节点 数 为 1 013 , 边 数 
140 186 ,网 络 密度 0. 273 , 网 络 聚 集 系数 为 0.138。 由 
此 发 现 ， iot diii: 由 高 频 词 所 构成 的 共 词 
网 络 较 为 稠密 。 进 而 ,分 别 统计 1 013 个 关键 词 的 出 现 
me eo 并 进行 学 科 属 性 判定 。 在 1 013 
个 关键 词 中 ,关键 词 词 频 最 小 为 46 次 ,最 大 为 2 616 
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次 ,平均 一 个 关键 词 出 现 161 次 。 关 键 词 最 早 于 1964 
年 出 现 ,最 晚 于 2013 年 出 现 , 时 间 差 值 则 为 0-49 年 。 
根据 关键 词 的 时 间 分 布 ( 见 图 2) ,大 多 数 关键 词 出 现 
在 1984 - 1998 年 之 间 ,表明 该 领域 在 此 阶段 引入 或 产 


关键 词 数量 


1960 1965 1970 1975 1980 1985 
关键 词 出 现年 份 


424 


269 


124 113 
i | 


医学 信息 学 EF DRR 计算 机 科学 。 统计 学 
学 科 


> 图 3 关键 词 的 学 科 分 布 


3A 模型 结果 分 析 与 讨论 
它 采 用 statnet 工具 包 对 零 模型 .网 络 结构 模型 .节点 
属 攻 模型 和 综合 模型 进行 参数 估计 ,所 用 估计 方法 为 
马 角 可 夫 链 蒙特 卡 罗 最 大 似 然 法 ( 即 MCMC MLE), 
模型 拟 合 效果 评价 指标 采用 AIC 和 BIC ,指标 值 越 小 
表明 模型 效果 越 好 。 表 4 列 出 了 4 个 模型 的 参数 估计 
结果 。 根 据 AIC 和 BIC 值 可 以 得 出 ,网 络 结构 模型 的 
AIC 和 BIC 值 小 于 节点 属性 模型 的 值 ,表明 内 生 因 素 
对 于 关系 形成 的 影响 较 之 于 外 生 因素 的 影响 更 大 。 从 
系统 论 角度 来 看 ,将 学 科 交 叉 领 域 的 知识 系统 描述 为 
共 词 网 络 ,其 网 络 的 结构 特性 成 为 关系 生成 的 最 为 主 
要 的 动力 因素 。 这 从 侧面 反映 了 利用 共 词 网 络 描述 领 
域 知识 系统 的 优势 。 

综合 模型 结果 最 优 ,说 明 内 生 因 素 和 外 生 因素 不 
是 独立 作用 于 关系 形成 ,而 是 相互 影响 的 。 该 模型 
拟 合 数 据 与 真实 网 络 情况 最 为 接近 ,下 文 主要 依据 
综合 模型 的 参数 结果 分 析 各 个 影响 因素 的 具体 作 
用 。 
3.3.1 


内 生变 量 的 影响 机 制 ” 在 综合 模型 中 ,关键 词 
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生 的 知识 较 多 ,而 在 1999 年 以 后 新 知识 出 现 较 少 , 领 
域 进 入 成 熟 阶段 。 图 3 呈现 了 这 1 013 个 关键 词 的 学 
科 分 布 结果 ,医学 信息 学 的 关键 词 数量 最 多 (424 个 ) ， 
卫生 保健 次 之 (269 个 ) ,而 医学 最 少 (83 个 )。 


1990 1995 2000 2005 2010 2015 


2 关键 词 最 早出 现年 份 分 布 


点 度 中 心性 的 拟 合 结果 为 显著 正 相 关 。 该 结果 表明 ， 
在 节点 其 他 因素 数值 相同 的 情况 下 ,关键 词 点 度 中 心 
性 越 大 , 则 越 有 可 能 与 其 他 的 关键 词 形成 共 现 关系 。 
这 一 结果 印证 了 复杂 网 络 中 具有 普 适 性 的 择优 连接 机 
制 在 共 词 网 络 生 成 中 同样 发 挥 显著 作用 ,说 明 假 设 
HI 成 立 。 这 一 结论 与 共 词 网 络 节 点 度数 的 震 律 分 
布 '“ 所 得 结论 一 致 。 然 而 ,关键 词 中 介 中 心性 的 拟 合 
结果 显示 为 显著 不 相关 (0. 00 ,p-value « 0. 001) ,表明 
在 共 词 网 络 中 关键 词 是 否 处 于 中 介 位 置 并 不 影响 它 是 
否 被 其 他 关键 词 所 链接 ,说 明 假设 H2 不 成 立 。 聚 集 
系数 的 拟 合 结果 显示 为 显著 正 相 关 (0.52,p -value < 
0.001) ,上 且 该 值 较 大 。 这 说 明 ,在 其 他 因素 相同 的 情况 
下 ,拥有 较 高 聚集 系数 的 关键 词 与 其 他 关键 词 形成 共 
现 关 系 的 可 能 性 更 高 。 聚 集 系 数 越 大 ,该 节点 与 其 他 
节点 凝聚 成 团 的 能 力 越 大 ,因而 新 的 节点 与 之 建立 连 
边 的 可 能 性 越 高 ,证 实 了 假设 H3 c 

3.3.2 外 生变 量 影 响 机 制 ” 综 合 模 型 检验 了 关键 词 
节点 的 最 早出 现年 份 和 学 科 分 类 属性 两 种 网 络 外 生变 
量 对 于 关键 词 间 共 现 关系 生成 的 影响 。 针 对 关键 词 的 
最 早出 现年 份 变量 ,通过 差 值 分 析 考 察 关 键 词 最 早 
现时 间 如 何 影响 共 现 关系 生成 。 关 键 词 的 最 早出 现年 
份 差 值 范围 为 [1 -49] ,鉴于 篇 幅 有 限 , 未 在 表 4 中 进 
行 详尽 展示 ,采用 图 4 进行 呈现 。 图 4 仅 列 出 了 在 综 
合 模型 中 参数 估计 结果 为 显著 的 44 个 结果 , 非 显 著 的 
5 个 结果 说 明 该 年 份 差 值 对 关键 词 共 现 关系 形成 的 影 
响 并 不 明确 。 
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R4 ERGM 参数 估计 结果 
考察 变量 零 模型 网 络 结构 模型 节点 属性 模型 综合 模型 
基准 模型 变量 边 数 -0.98 "** -4.82** -1.16 ** -4.56 *** 
内 生变 量 点 度 中 心性 0.01 *** 0.01 *** 
中 介 中 心性 0.00 *** 0.00 *** 
聚集 系数 0.51 *e* 0.52 
外 生变 量 主 效应 -医学 信息 参照 项 参照 项 
主 效应 - 医学 0.30 ** -0.13 *** 
主 效 应 - 卫生 保健 0.14 *** -0.32 *** 
主 效 应 - 计算 机 科学 -0.10 *** -0.27 *** 
主 效 应 -统计 学 -0.34 ** -0.36 *** 
同 质 性 - 医学 信息 学 一 0. 09 *** -0.13 ** 
同 质 性 - 医学 0.26 *** 0.42 ** 
同 质 性 - 卫生 保健 0.65 *** 0.86 ** 
同 质 性 - 计算 机 科学 1.09 *** 1.49 ** 
T 同 质 性 - 统计 学 1.90 *** 29g *e* 
> 差异 性 - 最 早出 现年 从 略 详 见 图 4 
AIC 601 462 476 604 585 965 466 557 
e BIC 601 473 476 649 586 622 467 248 
Elena p «0.001 
N 连 。 
Ce 关键 词 节点 的 学 科 分 类 属性 为 类 别 型 变量 , 共 为 
co T Eze AJ Ay 
if 705 la 
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(5 最 早出 现年 份 -时间差 信 
T 图 4 综合 模型 中 关键 词 最 早出 现年 份 的 
© 时 间 差 值 效 应 检验 结果 


关键 词 最 早出 现年 份 的 时 间 差 值 结果 均 为 负 值 ， 

说 明 该 值 的 差异 性 对 关键 词 形成 共 现 关系 具有 显著 负 
句 影响 。 相 对 于 同一 年 份 出 现 的 关键 词 ,不 同年 份 的 
关键 词 形 成 共 现 关 系 的 可 能 性 相对 较 小 。 同 时 , 随 着 
时 间 差 值 的 增 大 ,其 估计 参数 值 越 来 越 小 ,表明 形成 共 
现 关系 的 可 能 性 也 在 逐渐 减 小 。 这 一 现象 说 明 ,在 医 
学 信息 学 领域 ,关键 词 倾向 于 与 领域 中 出 现 的 新 关键 
词 相 连 , 亦 表明 新 知识 更 容易 发 生 知识 连接 ,更 可 能 衍 
生出 新 兴 知 识 。 该 结果 证 实 了 假设 HA ,可 以 用 科学 研 
究 的 研究 热点 浮现 过 程 来 解释 :科学 研究 是 建立 在 已 
有 科学 发 现 基础 之 上 的 不 断 探索 的 过 程 ,新 的 研究 发 
现 往往 会 激发 起 更 多 的 相关 科学 问题 ,从 而 形成 一 个 
个 新 的 研究 热点 。 这 一 过 程 在 共 词 网 络 中 的 表现 是 
新 的 关键 词 倾向 于 与 产生 时 间 较 为 接近 的 关键 词 相 


其 设计 了 两 种 检验 :中 主 效应 ,考察 单个 节点 的 学 科 类 
别 属 性 对 连 边 生 成 的 影响 ;@ 二 元 节点 对 之 间 的 同 质 
性 ,检验 连 边 两 端 节 点 的 学 科 一 致 性 对 连 边 生成 的 影 
响 。 在 检验 学 科 类 别 属性 的 主 效应 时 ,以 医学 信息 学 
为 参照 项 , 拟 合 结果 显示 其 他 学 科 值 均 为 显著 负 相 关 。 
该 结果 说 明 ,相对 于 医学 信息 学 的 关键 词 节点 ,医学 、 
卫生 保健 、 计 算 机 科学 和 统计 学 的 关键 词 与 其 他 关键 


词 建立 连 边 的 可 能 性 较 小 。 反 言 之 ,在 这 5 个 学 科 中 ， 
医学 信息 学 的 关键 词 节 点 ,被 选择 成 为 共 现 关 健 词 的 


可 能 性 最 大 。 在 整个 网 络 中 ,关键 词 更 倾向 于 与 作为 
交叉 领域 的 医学 信息 学 关键 词 建立 连 边关 系 。 

在 表 4 中 ,学 科 分 类 属性 的 同 质 性 检验 结果 是 : 同 
属于 医学 卫生 保健 、 计 算 机 科学 和 统计 学 4 个 学 科 的 
估计 参数 分 别 为 0.86 .1.49 .0.42 和 2.28 , 均 为 显著 正 
相关 。 由 此 说 明 , 这 4 个 学 科 的 关键 词 更 倾向 于 和 自 
身 学 科 的 关键 词 形成 共 现 关 系 。 与 此 同时 , 医学 信息 
学 的 同 质 性 检验 值 为 显著 负 相 关 ( -0.13) ,表明 同属 
于 医学 信息 学 的 关键 词 建立 共 现 关系 的 可 能 性 较 小 ， 
反之 该 学 科 关 键 词 更 倾向 于 与 其 他 4 个 学 科 的 关键 词 
形成 共 现 关系 。 该 结论 细 化 了 假设 HS 

综 上 分 析 , 医 学 .卫生 保健 .计算 机 科学 和 统计 学 
4 个 学 科 的 关键 词 ,优先 倾向 于 与 本 学 科 关 键 词 形成 

共 现 关系 ,其 次 倾向 于 与 医学 信息 学 关键 词 形成 共 现 
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关系 ,表现 出 一 定 的 路 径 倾向 。 然 而 ,医学 信息 学 的 关 
键 词 , 则 优先 倾向 于 与 其 他 学 科 关 键 词 形成 共 现 关系 。 
该 说 明 , 医 学 信息 学 这 一 学 科 交 又 领域 的 知识 倾向 于 
与 医学 .卫生 保健 、 计 算 机 科学 和 统计 学 等 其 他 学 科 知 
识 相 连 ,体现 了 该 交叉 领域 借用 移植 和 融合 其 他 学 科 
知识 的 跨 学 科 性 。 


4 结语 


学 科 交 叉 领 域 的 共 词 网 络 是 领域 内 多 学 科 知识 连 
接 的 具象 化 呈现 , 共 词 网 络 中 关键 词 共 现 关系 是 知识 
的 微观 连接 的 体现 。 笔 者 从 学 科 交叉 共 词 网 络 出 发 ， 
运用 指数 随机 图 模型 从 网 络 内 生变 量 和 外 生变 量 两 方 
面 人 手 ,考察 关键 词 共 现 关系 建立 的 影响 因素 及 其 具 
体 作用 ,以 此 理解 学 科 交叉 领域 的 微观 知识 连接 机 制 ， 
万 往 是 不 同学 科 知识 的 作用 。 以 医学 信息 学 为 例 开 展 
Sta 得 到 如 下 发 现 : 
COD) 从 网 络 系统 角度 来 看 ,网 络 结构 对 于 共 现 关 
ACIE JUI RARE T Je bis IR ER I 择优 连接 
机 制 和 传递 性 机 制 较 大 程度 上 影响 了 共 词 网 络 的 生 
成 了 这 一 结果 也 体现 了 采用 复杂 网 络 描述 领域 知识 系 
绑 四 优势 ,借助 于 网 络 谋 入 理论 可 以 揭示 领域 知识 系 
统 的 内 在 结 吉 构 规律 ; 
C (2) 关键 词 节点 倾向 于 与 较 新 的 知识 节点 相连 ， 
新 寄 识 节点 更 容易 衍生 出 新 知识 。 这 一 规律 可 采用 科 
这 研究 的 热点 浮现 过 程 进行 解释 ; 
Cay 医学 信息 学 关键 词 倾向 于 与 相关 基础 学 科 的 
关键 词 建立 共 现 关系 ,反映 了 该 交 又 领域 吸纳 相关 基 
三 留 科 知识 ,体现 了 该 领域 的 学 科 交 又 特性 。 同 时 ,还 
发 现在 这 一 交叉 领域 中 ,各 基础 学 科 的 关键 词 却 倾向 
于 与 自身 学 科 关 键 词 相连 ,说 明 交 叉 领 域 应 用 基础 学 
科 知 识 具 有 一 定 的 路 径 性 ,而 不 是 全 面 结合 。 

本 文 研究 亦 存在 一 些 不 足 。 仅 研究 了 少量 几 个 影 
响 共 词 关系 形成 的 因素 ,还 可 能 存在 更 多 的 影响 因素 ， 
如 关键 词 的 语义 等 。 在 实证 过 程 中 基于 投票 思想 , 采 
用 一 种 学 科 隶 属 度 指 标 进 行 关 键 词 的 学 科 分 类 属性 判 
定 。 该 方法 较为 简单 直接 ,未 考虑 关键 词 属于 多 个 学 
科 的 情况 ,忽略 了 关键 词 学 科 归 属 的 模糊 性 和 跨 学 科 
性 现象 ，”。 笔 者 仅 对 医学 信息 学 这 一 交叉 领域 进 
行 了 研究 ,相关 结论 是 否 受 学 科 差异 性 影响 ,尚未 检 
验 。 在 未 来 研究 中 ,将 针对 这 些 问题 进一步 深入 研究 ， 
并 对 多 个 交叉 学 科 对 比分 析 , 同 时 将 借助 统计 物理 模 
型 印证 本 文 的 相关 发 现 。 
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E: aii Study on Knowledge Connection Mechanism of Interdisciplinary Field Based on ERGM 
z Cao Yujie! Li Gang! Mao Jin! Yang Guancan? 
' Center for Studies of Information Resources, Wuhan University, Wuhan 430072 

* School of Information Resource Management, Renmin University of China, Beijing 100872 
Abstract. [ Purpose/significance ] The article aims to explore the factors and their mechanisms influencing the gen- 
eration of co-word network for interdisciplinary field, and to reveal micro-level mechanisms of knowledge connection in in- 
terdisciplinary field. [ Method/process] Borrowing network embedding theory, the article summarizes the factors into 
network structure factors ( endogenous variables) and keywords’ attribute factors ( exogenous variables). Exponential ran- 
dom graph model is constructed based on these factors to perform an empirical analysis on the field of Medical Informatics. 
[ Result/conclusion | The results show that the influence of network structure factors on the co-occurrence relationship 
generation is greater than that of keywords’ attributes. Preferential attachment and transitive mechanism have significant 
positive effect. Keywords tend to be connected with the newer ones. In addition, the keywords of Medical Informatics tend 
to establish co-occurrence relations with the keywords from basic disciplines, while the keywords from basic disciplines 
tend to be connected with the keywords in their own disciplines. The conclusions are helpful to understand the formation 

process of knowledge systems in interdisciplinary fields and the interactions of interdisciplinary knowledge. 
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